Un modèle neuro markovien profond pour l'extraction de séquences dans des documents manuscrits

نویسندگان

  • Simon Thomas
  • Clément Chatelain
  • Thierry Paquet
  • Laurent Heutte
چکیده

RÉSUMÉ. Dans cet article, nous proposons un système d’extraction de mots clés dans des documents manuscrits. Notre approche est basée sur la reconnaissance des lignes de texte à l’aide d’un modèle HMM capable de rejeter les mots n’appartenant pas à un lexique prédéfini. Afin d’être plus discriminant, nous avons remplacé les mélanges de gaussiennes des HMM par un réseau de neurones profond pour calculer les probabilités a posteriori des observations. Nous montrons sur la base de documents des compétitions ICDAR 2009 l’intérêt de notre approche d’extraction d’information par rapport à une stratégie basée sur la reconnaissance intégrale du document. Les résultats montrent également l’apport de l’architecture profonde par rapport aux mélanges de gaussiennes.

برای دانلود متن کامل این مقاله و بیش از 32 میلیون مقاله دیگر ابتدا ثبت نام کنید

ثبت نام

اگر عضو سایت هستید لطفا وارد حساب کاربری خود شوید

منابع مشابه

Un modèle pour la représentation des connaissances temporelles dans les documents historiques

Résumé : Traiter et publier les données des sciences historiques dans le web sémantique constitue un défi intéressant où la représentation des aspects temporels joue un rôle clé. Nous proposons dans cet article un modèle de représentation des connaissances temporelles adapté au travail sur les documents historiques. Ce modèle est basé sur la notion de fluent que l'on représente dans des graphes...

متن کامل

Un modèle de bibliothèque numérique collaborative - ARMARIUS

RÉSUMÉ. Les manuscrits anciens numérisés représentent un contenu spécifique pour les bibliothèques numériques. Les utilisateurs travaillant sur ce type de documents ont besoin de systèmes d’assistance et d’espaces de travail collectif pour interpréter, annoter et transcrire ces manuscrits. Dans cet article, nous présenterons un modèle de bibliothèque numérique spécialement conçu pour des manusc...

متن کامل

Modèle probabiliste pour l'extraction de structures dans les documents web

RÉSUMÉ. Le développement des systèmes de gestion de contenu a profondément changé la nature du web : de plus en plus de documents sont créés automatiquement et leur mise en page reflète leur structure logique. Dans ce travail, nous montrons que l’information contenue dans la mise en page est suffisante pour inférer une structure sémantiquement riche, ce qui ouvre la voie à de nombreuses applica...

متن کامل

Une nouvelle approche pour indexer les documents manuscrits anciens Une nouvelle approche pour indexer les documents manuscrits anciens

Résumé : Dans cet article nous présentons une architecture pour la description et la recherche de documents manuscrits anciens. Nous utilisons une décomposition en Curvelets des images pour indexer les fragments linéaires de l’écriture. Appartenant à la famille des ondelettes, cette transformée nous permet d’avoir plusieurs niveaux de détails. Le schéma général consiste à analyser les orientati...

متن کامل

Apprentissage neuro-symbolique pour la RI coopérative, adaptative et évolutive : le modèle multi-agents SARCI

RÉSUMÉ. Dans cet article nous proposons un modèle pour un SRI qui prend en compte la complexité de la requête de l’utilisateur en proposant de la décomposer en différents points de vue. Nous proposons également de considérer les documents du corpus suivant des angles différents et des structures diverses. Pour prendre en compte le caractère évolutif des connaissances liées aux documents et aux ...

متن کامل

ذخیره در منابع من


  با ذخیره ی این منبع در منابع من، دسترسی به آن را برای استفاده های بعدی آسان تر کنید

برای دانلود متن کامل این مقاله و بیش از 32 میلیون مقاله دیگر ابتدا ثبت نام کنید

ثبت نام

اگر عضو سایت هستید لطفا وارد حساب کاربری خود شوید

عنوان ژورنال:
  • Document Numérique

دوره 16  شماره 

صفحات  -

تاریخ انتشار 2013